查看原文
其他

某银行29套数据库业务系统规模化整合最佳实践

唐国兵 twt企业IT社区 2024-02-18

由于长期大规模分散建设带来的竖井式IT蔓延和分布式建设的持续发展,银行业的整合需求开始不断涌现。继江西银行2016年底整合了柜面和定价的应用和数据库系统,将DB2、WAS、JAVA应用、GPFS和Oracle等软件快速从其它平台迁移到LinuxONE平台,实现了无缝快速移植,通过LinuxONE全共享的架构优势,结合持续的扩展和自动化资源优化能力,大规模整合在银行业的深入应用在不断拓展。

本文旨在通过简单明了的方式解释LinuxONE如何帮助某城商行实现大规模整合,以及对比传统分散建设都有哪些方面的业务价值。


某城商行在目前大规模的小型机和X86的部署下,遇到了很多问题亟待解决。而这些问题产生的原因最主要是该城商行缺乏一个可持续发展的平台,往往总是规划赶不上变化。因为技术的原因、采购周期的原因、到位资金的问题、规划的原因、监管变化的原因、外部市场环境变化等多种因素,使得该城商行在IT建设的不同阶段采购了大量品牌不同、产品不同、型号不同的物理设备,部署了上百个业务系统,甚至有些业务系统还是单点和冷备的状态,IT基础架构复杂度非常高,信息孤岛现象严重,改造难度巨大且风险难以控制,极大的阻碍了未来的业务发展。

此外,互联网的快速发展使得该城商行业务受到极大的挑战,必须要做出改变,而反映到IT,需要能够快速满足业务发展的需要,比如银行怎么能够快速推出好的产品,怎么快速启用新渠道,这就需要基础架构更灵活。

同时,如何保障现有和新的平台的持续有效利用,资源共享,特别是在数据库层面,越来越分散的建设思路已经造成了很多问题,竖井式的建设造成了严重的资源浪费,而在某一时段急需资源的系统又得不到这种支撑,唯一能做的就是不断增加硬件。

那么其它问题也来了,高峰过后闲置的资源又如何被利用?如果高峰和平峰差距较大,这种浪费将更加巨大,从一个系统扩散到几十个系统,数据中心的蔓延将不可避免。即便X86足够便宜,经济性和高效运维而言也不具有持续性,比如大规模的机器部署,软件成本的急剧攀升如何有效控制,那么多机器,如何保障一致性的运维,都是企业面临的巨大挑战。

该城商行所面临的挑战也是银行业遇到的普遍问题,我们将其归纳为四个方面:

第一方面是软件版本的不一致问题。

第二方面是系统缺乏一致的高可用保障。

第三方面是竖井式建设带来的信息孤岛和资源无法有效共享的问题。

第四方面是急剧攀升的软件成本问题。

本文将重点围绕第三个方面进行展开分析。

该城商行现有大量的小型机和x86服务器,分别部署全行所有的业务系统。如果在新建数据中心的时候,继续沿用原来的建设模式,势必使得当前的IT基础架构部署规模更大,信息孤岛和资源共享问题将更加突出。

通过对该城商行服务器的调查和获得的反馈得知,低利用率的服务器大量存在,且只有少量业务长期处于资源不足的情况,而其它大部分服务器在大部分时间处于低利用率状态。如何有效的实现资源共享,减少资源浪费是该行亟待解决的问题。如果新数据中心建设继续采用原来的部署模式,这种资源浪费的现象将更大规模的蔓延到两个数据中心。

通过数据库规模化整合有助于规避这样的风险,确保由于业务变化对物理资源的快速调整,同时保障不同业务负载的优先级资源保障,确保闲置资源能够最大程度释放。比如,由于业务快速发展或者产品促销推广(双十一,网红产品等),交易类业务负载会出现爆发式增长,交易量可能是之前的几倍甚至数十倍以上,原规划业务如果部署在物理分散的两台处理能力较弱的小型机或者x86上,而且这些服务器同时还部署了其它业务,那这样的交易量使得客户只能被动的尽可能增加新的设备进行补充。而一旦高峰结束,服务器使用率又回到较低的水平,资源长期闲置,不能得到充分利用。业务高峰和平均使用率的差距越大,使得这种资源闲置越明显,对于银行而言,很难预测和避免,只有通过自动化削峰填谷才能实现最大化资源集约利用,减少浪费,避免业务快速发展带来的IT蔓延。

经过和该城商行多次沟通,梳理不同系统的业务特点,通过数据库规模化整合,实现资源共享和优先级保障,将目标关注在29套数据库业务,共两个安全业务网络,其中核心业务安全域共3套,开放业务安全域共26套。

该解决方案只会替代下图数据库部分,不会改变现有整体网络架构,不影响现有网络防护,安全等架构和改造,外部交互还是通过应用系统来连接和管理。而在LinuxONE端也借助商用服务器中安全等级最高的隔离技术,实现不同业务域的安全隔离需求,保障数据库端的网络,I/O及内存等资源的隔离。

该解决方案为了实现最大化的资源共享,保证了所有分区的CPU共享(下图红色方框),同时根据当前和未来的使用率评估和预测,进行了权重设置(下图绿色方框),保障各业务负载的优先级,并对内存设置了预留,可以不停机秒级激活。通过规模化整合,实现资源共享可以保障所有分区的业务都有可能在别的分区资源闲置的时候使用到最高10个CPU,也就是所谓的削峰填谷。也能保障当各业务同时处于高峰时候确保每个分区的业务能够得到预先设置的权重资源,也就是所谓的优先级保障,而且这些实现都是自动化,不需要人工干预。资源自动化共享和优先级保障能够最大程度实现资源集约化使用,减少浪费同时能够最大程度提供业务发展的灵活性,而不是被动的不断的增加物理设备。

从整个上线情况来看,呈现的效果,是非常好的。联机交易类业务,LinuxONE高峰使用率不超过25%,而原来部署在不同的硬件平台,高峰使用率有高有低,小型机为30%左右,X86为40%左右,虽然这些机器平均使用率并不高,甚至有些机器绝大多数时间处在5%-10%之间,但正如之前提到的,高峰使用率和平均使用率差距太大,造成了资源浪费也就更明显,并且也很难做到资源共享,使得某些业务在需要更多资源时得不到有效支持,比如数据分析类业务,虽然不是5*8或7*8的实时业务,但运行期间对资源要求较高。通过LinuxONE整合解决方案,平均使用率和高峰使用率都非常接近,这是资源集约化和错峰利用下的结果,最大程度的减少了资源浪费,提升资源使用效率。而夜间批处理的窗口期减少为原来的1/2到1/3之间,相当于提升了2到3倍的效率,夜间批处理时间窗口的减少,对于该城商行而言,有更多时间应对突发事件,尽可能的避免白天的停业风险。

如果按照原来的部署模式,需要将近20台或者更多的设备,而该方案只需要三台设备,极大简化了灾备建设的复杂度。我们提供了同城生产和灾备双中心一个2+1的机器配置,每台机器配置完全相同,10个IFL,960GB,以及对应的网卡和HBA卡。整合的29套数据库原来是部署在18台服务器上,其中小型机为12台,X86为6台,共计536个CPU核,方案整合比例是1:17.8。

在具体的整合方案中,生产中心两台机器根据客户需求,同时增加了准生产区,并做了内存和网络,I/O的隔离,对于CPU来说,因为共享的,并设置了权重和优先级,未来准生产可以有效利用错峰的时间窗口期,即便同时运行,也不会相互干扰。两台机器的部署完全相同,并做了RAC集群,三个业务网络实现了分区隔离,核心生产业务域和开放生产业务域都预留了一个备用分区,该备用分区是为以后新上线系统预留的分区,而准生产分区是保障每一个系统上线前的验证。

可以看到这是一个极简的整合方案,借助逻辑分区+ORACLE 12C的容器集中部署的方式,相较于虚拟化软件,更轻量级,性能也会更好,管理和易用性也更简单,降低了部署安装和性能的风险,架构更为简单。另外客户的学习门槛直线下降,原来多种虚拟化方式不能共融的情况得到彻底解决,通过分区加数据库容器的部署,客户能够快速上手,实施规模也变得更小。而如果使用虚拟化,每台机器客户需要部署8个分区,8套虚拟化, 超过30个Linux, 而这个方案只需要部署8个分区,8套Linux,后期项目风险和运维都会相对简单。

从同城双中心的视角来看,原来18台服务器的部署变成现在的3台,而且原来是以小型机为主,如果换成X86为主,规模将更大,通过LinuxONE整合平台,极大的简化了客户的基础架构,使得运维管理和灾备建设变得更加简单。存储方面通过双活部署,作为第一灾备切换选择,应用端通过ORACLE ADG实现数据库复制,作为第二灾备切换选项,能够最大程度提供客户在RTO和RPO上的灵活性。

通过LinuxONE大规模整合解决方案帮助该城商行解决了四个方面历史遗留问题:

第一,统一了29个业务系统的操作系统和数据库的版本。

第二,实现了29个业务系统的一致的高可用等级,LinuxONE实现了一致性应用(RAC+ADG)和存储(同城双活)的高可用和灾备等级。

第三,和原来每台服务器较低的平均使用率和较高的高峰使用率相比,资源浪费得到极大改善,原来在高峰时段,某些业务系统的硬件资源不足的情况的场景,包括错峰的业务却不能通过分散的物理设备实现共享的场景,通过这套方案得到了有效缓解,而且这些资源平衡还是自动化的。

第四,软件成本风险得到有效规避,由于即将上市,客户非常重视未来的各种潜在的软件成本风险规避。以Oracle为例,LinuxONE解决方案相较于之前的部署模式至少可以降低一个数量级的License费用。

总结该城商行LinuxONE大规模整合解决方案的价值,主要是两个方面,一个是集约运营,提升回报。一个是简化运维,降低风险。

就集约运营和提升回报这个价值点而言,有些之前已经提到就不再赘述。关于构建绿色数据中心这一点,因为大规模减少了物理硬件的部署,包括外围设备的大幅减少,除了能耗的减少以外,紧张的机房空间得到了有效解决。虽然客户是新建机房,看起来也足够大,但是已经规划满,未来可扩展空间已经非常有限,机房紧张的问题也是大部分客户遇到的制约发展的普遍问题,这也反映出大规模分布式建设过程中出现的一些问题。

我们说历史是一面镜子,古语有言:“天下之事,分合交替,分久必合,合久必分。”IT发展史不但曾经经历过类似的发展史,未来也势必经历这样的历史发展趋势。LinuxONE区别于其它平台的关键之处在于,效率的提升和价值的创造是依赖于架构的创新,而不是传统的通过扩大规模的方式来实现。

关于第二个价值点——简化运维和降低风险,之前也都有不同程度的介绍。这套方案的易用性非常明显,因为没有虚拟化软件,安装部署极为简单。关于弹性扩展这方面,当前使用产品为入门级产品,客户当前产品平均使用率为20%,高峰使用率为25%,按照LinuxONE体系架构设计,建议高峰使用率不超过80%,对于未来新增系统而言,不改变当前配置下也能够支撑未来相当一段时间的业务扩展。同时大规模整合的意义在于集约化资源利用,即便在负载大量增长后,也能够通过资源优化平衡实现最大化资源节约。同时10个IFL的配置意味着客户还能通过该机器扩展到30个IFL,再不考虑企业级产品的情况,30个的IFL也足以支撑未来3-5年的业务发展。

另外,针对简化运维、降低风险这一价值点,其实我们也想表达的是:与目前业界大规模分散建设的做法相比,LinuxONE做了一些不一样的事情。这并不是简单的集中式和分布式的比较,从某种层面来说,目前一味的增加物理设备的方式,通过分布式建设并不是适用于所有场景、所有业务。这种不断做加法,为了分而分的做法,直接照搬,没有可持续性,整个IT的复杂度将越来越不可控制。而LinuxONE大规模整合是在帮助客户做减法,最终实现简化运维,降低系统风险。


本文作者:唐国兵,IBM大中华区系统事业部LinuxONE团队的技术专家,在主机相关技术和方案研究方面有丰富的经验。目前主要致力于支持开拓LinuxONE市场,为潜在客户梳理业务需求,提供产品解决方案,竞争性分析和TCO投资分析等客户诉求,同时也帮助装机客户分析当前使用状况和未来预期建议,积累了非常丰富的客户支持和服务经验。另外,近年来针对业界不同的IT技术和架构有着广泛的研究,包括在融合计算,云计算、区块链以及分布式计算等等。


 推荐资料:

LinuxONE银行大规模业务系统整合解决方案

下载地址:

http://www.talkwithtrend.com/Document/detail/tid/413585


点击阅读原文关注社区  “LinuxONE”技术主题 ,将会不断更新优质资料、文章,您也可以前往提出疑难问题,与同行切磋交流。


下载 twt 社区客户端 APP

与更多同行在一起

高手随时解答你的疑难问题

轻松订阅各领域技术主题

浏览下载最新文章资料


长按识别二维码即可下载

或到应用商店搜索“twt”


长按二维码关注公众号

继续滑动看下一个

某银行29套数据库业务系统规模化整合最佳实践

唐国兵 twt企业IT社区
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存